sklearn.datasets 서브패키지는 모형 실습을 위한 예제 데이터 세트를 제공한다.
예제 데이터 세트를 불러오는 명령들은 크게 다음과 같은 세가지 계열의 명령으로 나눌 수 있다.
예제 데이터 세트는 데이터 크기가 작은 것부터 큰 것까지 다양하다. scikit-learn 패키지는 작은 예제 데이터는 패키지 안에 포함하여 배포하고 크기가 큰 것들은 첫번째로 데이터를 불러들일때 인터넷에서 다운로드받아 저장해 놓았다가 불러온다.
load 계열의 명령들은 패키지에 처음부터 저장되어 다운로드 없이 바로 쓸 수 있는 것들이다.
load_boston()
: 회귀 분석용 보스턴 집값 load_diabetes()
: 회귀 분석용 당뇨병 자료load_linnerud()
: 회귀 분석용 linnerud 자료load_iris()
: classification용 iris 자료load_digits()
: classification용 숫자 필기 이미지 자료load_sample_image()
: 압축용 이미지fetch 계열의 명령들은 데이터의 크기가 커서 패키지에 처음부터 저장되어 있지 않고 인터넷에서 다운로드 받아 홈 디렉토리 아래의 scikit_learn_data 라는 서브 디렉토리에 저장한 후 추후 불러들이는 데이터들이다. 따라서 최초 사용시에 인터넷에 연결되어 있지 않으면 사용할 수 없다.
fetch_covtype()
: 회귀분석용 토지 조사 자료fetch_20newsgroups()
: 뉴스 그룹 텍스트 자료fetch_olivetti_faces()
: 얼굴 이미지 자료fetch_lfw_people()
: 얼굴 이미지 자료fetch_lfw_pairs()
: 얼굴 이미지 자료fetch_rcv1()
: 로이터 뉴스 corpusfetch_mldata()
: ML 웹사이트에서 다운로드경우에 따라서는 모형을 시험하기 위해 원하는 특성을 가진 가상의 데이터가 필요할 수 있다. make 계열 명령은 이러한 가상 데이터를 생성하는 역할을 한다.
make_regression()
: 회귀 분석용 가상 데이터 생성 make_classification()
: 분류용 가상 데이터 생성 make_blobs()
: 클러스터링용 가상 데이터 생성 scikit-learn의 대부분의 샘플 데이터는 Bunch
라는 클래스 객체로 생성된다. 이 클래스 객체는 다음과 같은 속성을 가진다.
data
: (필수) 독립 변수 ndarray
배열target
: (필수) 종속 변수 ndarray
배열feature_names
: (옵션) 독립 변수 이름 리스트target_names
: (옵션) 종속 변수 이름 리스트DESCR
: (옵션) 자료에 대한 설명